## 'data.frame': 1599 obs. of 12 variables:
## $ fixed.acidity : num 7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
## $ volatile.acidity : num 0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
## $ citric.acid : num 0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
## $ residual.sugar : num 1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
## $ chlorides : num 0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
## $ free.sulfur.dioxide : num 11 25 15 17 11 13 15 15 9 17 ...
## $ total.sulfur.dioxide: num 34 67 54 60 34 40 59 21 18 102 ...
## $ density : num 0.998 0.997 0.997 0.998 0.998 ...
## $ pH : num 3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
## $ sulphates : num 0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
## $ alcohol : num 9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
## $ quality : int 5 5 5 6 5 5 5 7 7 5 ...
Notes:该数据集有1599个观察值,12个变量
## fixed.acidity volatile.acidity citric.acid residual.sugar
## Min. : 4.60 Min. :0.1200 Min. :0.000 Min. : 0.900
## 1st Qu.: 7.10 1st Qu.:0.3900 1st Qu.:0.090 1st Qu.: 1.900
## Median : 7.90 Median :0.5200 Median :0.260 Median : 2.200
## Mean : 8.32 Mean :0.5278 Mean :0.271 Mean : 2.539
## 3rd Qu.: 9.20 3rd Qu.:0.6400 3rd Qu.:0.420 3rd Qu.: 2.600
## Max. :15.90 Max. :1.5800 Max. :1.000 Max. :15.500
## chlorides free.sulfur.dioxide total.sulfur.dioxide
## Min. :0.01200 Min. : 1.00 Min. : 6.00
## 1st Qu.:0.07000 1st Qu.: 7.00 1st Qu.: 22.00
## Median :0.07900 Median :14.00 Median : 38.00
## Mean :0.08747 Mean :15.87 Mean : 46.47
## 3rd Qu.:0.09000 3rd Qu.:21.00 3rd Qu.: 62.00
## Max. :0.61100 Max. :72.00 Max. :289.00
## density pH sulphates alcohol
## Min. :0.9901 Min. :2.740 Min. :0.3300 Min. : 8.40
## 1st Qu.:0.9956 1st Qu.:3.210 1st Qu.:0.5500 1st Qu.: 9.50
## Median :0.9968 Median :3.310 Median :0.6200 Median :10.20
## Mean :0.9967 Mean :3.311 Mean :0.6581 Mean :10.42
## 3rd Qu.:0.9978 3rd Qu.:3.400 3rd Qu.:0.7300 3rd Qu.:11.10
## Max. :1.0037 Max. :4.010 Max. :2.0000 Max. :14.90
## quality
## Min. :3.000
## 1st Qu.:5.000
## Median :6.000
## Mean :5.636
## 3rd Qu.:6.000
## Max. :8.000
Notes:质量评分范围在0~10,通过图表发现数据集中的质量评分在3~8区间,其中处于5,6分的数量较多。说明质量较好或较差的葡萄酒数量都相对较少,多的是质量中等的葡萄酒。
Notes:pH直方图呈现出很好的正态分布,大多数处于3.2~3.4区间,呈酸性。
Notes:酒精浓度大多处于9~11区间,中位数是10.2,平均值为10.42。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.40 9.50 10.20 10.42 11.10 14.90
Notes:大部分葡萄酒的固定酸度位于7-9(g/dm3)之间。中位数为7.9g/dm3,平均值为8.32g/dm^3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.60 7.10 7.90 8.32 9.20 15.90
Notes:大部分葡萄酒的挥发性酸度位于0.3-0.8(g/dm3)之间,中位数为0.52g/dm3,平均值为0.528g/dm^3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1200 0.3900 0.5200 0.5278 0.6400 1.5800
Notes:柠檬酸相对于其他两种酸的含量较少,可以看出大多数都处在0-0.5(g/dm^3)之间。
Notes:�由红酒甜度的可视化图表分析发现,普遍红酒甜度都很低,甜度较高的红酒相对稀少。
查阅资料发现,糖酸比是影响评价指标的一个重要因素,糖酸比指总糖和总酸的比值。所以我将定义一个新的变量糖酸比
Notes:密度直方图呈现出很好的正态分布,从图中可以看出红葡萄酒的密度与水十分接近。
Notes:硫酸盐的含量大部分在0.5-0.8(mg/dm^3)之间。
Notes:改变x轴,使游离二氧化硫的长尾分布呈现近似正态分布,游离二氧化硫大部分值在7-21(mg/dm^3)之间。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 7.00 14.00 15.87 21.00 72.00
Notes:改变长尾数据,总二氧化硫的数量呈现一个比较好的正态分布.总二氧化硫的数量大多在22-70(mg/dm^3)之间。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.00 22.00 38.00 46.47 62.00 289.00
查阅资料发现,二氧化硫对葡萄酒起到保护作用,在保护葡萄酒液的天然水果特性,同时又防止葡萄酒液老化。猜测二氧化硫和质量评定有关系,创建新变量free.sulfur.dioxide.pro。
Attribute information:
1 - fixed acidity (tartaric acid - g / dm^3) 2 - volatile acidity (acetic acid - g / dm^3) 3 - citric acid (g / dm^3) 4 - residual sugar (g / dm^3) 5 - chlorides (sodium chloride - g / dm^3 6 - free sulfur dioxide (mg / dm^3) 7 - total sulfur dioxide (mg / dm^3) 8 - density (g / cm^3) 9 - pH 10 - sulphates (potassium sulphate - g / dm3) 11 - alcohol (% by volume) Output variable (based on sensory data): 12 - quality (score between 0 and 10)
1、pH值是否对红酒的质量有影响; 2、酒精浓度对质量得分是否有影响; 3、残糖和固定酸度或挥发酸度之间是否有关联性。 ### 你认为数据集内哪些其他特征可以帮助你探索兴趣特点? pH值;alcohoh;residual sugar;fixed acidity ### 根据数据集内已有变量,你是否创建了任何新变量? 是,创建了变量ratio和free.sulfur.dioxider.pro。 ### 在已经探究的特性中,是否存在任何异常分布?你是否对数据进行一些操作,如清洁、调整或改变数据的形式?如果是,你为什么会这样做? residual.sugar变量有一些异常值,截取部分数据(将一部分过大的数据删除了,因为那一部分残糖似乎过大了),放大图形便于观察。在进行游离二氧化硫和二氧化硫总量的绘图的时候,将长尾数据通过log转换为近似正态分布的数据,是为了更好的看出该数据的特征。
从数据图中可以看出,酒精似乎和质量的相关性较强,而创建的新变量糖酸比似乎和质量的相关性不高。 从图中corr值可以看出,红酒质量和挥发性酸度的相关系数为0.413,和酒精浓度的相关系数为0.47,有较强的相关关系。
过分绘制酒精浓度和质量散点图后可以看出两者之间有一点的相关性,计算相关系数得出0.48,有较强的相关关系。
从图中可以看出,红酒评分越好,对应的酒精浓度越高。
从图中可以看出,红酒质量评分越高,挥发性酸度越低。
分析新变量二氧化硫比,从图片似乎得不到太明显的趋势性特征。质量得分较低或较高,二氧化硫比都比较低。
分析新变量糖酸比和质量得分的相关性,从图片看出两者的相关性并不明显。
分析氯化物和质量得分的相关性图中,回归线看起来似乎有一点负相关,但是两者的相关性并不特别明显。
分析密度和质量得分的可视化图表中可以看出,两者的相关性不太明显。
分析pH和质量得分的可视化图表中可以看出,两者的相关性不太明显。
分析硫酸盐和质量得分的可视化图表中可以看出,两者似乎呈现出一定的正相关性。
分析固定酸度和质量得分的可视化图表中可以看出,两者的相关性不太明显。
分析柠檬酸和质量得分的可视化图表中可以看出,两者呈现出明显的正相关关系。
分析残糖和质量得分的可视化图表中可以看出,两者的相关性不太明显。
分析游离二氧化硫和质量得分的可视化图表中可以看出,两者的相关性不太明显。
分析总二氧化硫和质量得分的可视化图表中可以看出,两者的相关性不太明显。
从以上分析图可以看出,质量评分会随着酒精浓度、柠檬酸和硫酸盐三种变量的增加而增加,呈现正相关关系。而质量评分和挥发性酸度之间也呈现很强的负相关关系。固定酸度和pH值之间呈现负相关关系。查阅资料可知,挥发性酸度过高会导致不愉快的醋味,柠檬酸可以增加葡萄酒的新鲜度和风味,因而可能成为葡萄酒的评分标准之一。
图中六个小模块图分别代表了不同的质量得分固定酸度和挥发性酸度数值的分布情况,固定酸度在不同的质量得分下分布区间都比较分散,但是,质量得分越高,挥发性酸度反而越低,数值集中在0.4周围。
绘制酒精浓度和密度关系的散点图,并且用颜色的深浅不同的点分别表示质量得分情况,添加抖动和透明度,使重叠较多的范围显示出来,便于观察。观察发现,红葡萄酒的密度随着酒精浓度的增加而降低。
从以上可视化图片可以看出,质量评分较高的红酒,挥发性酸度比较低;酒精浓度和红酒密度有很强的相关性,酒精浓度增加,密度逐渐降低
大部分红酒的质量得分在中间,5分或6分。较高得分或者较低得分的红酒数量较少。猜测也许红酒得分是由多项指标决定,所以比较难获得高分。
评分较高的红酒一般具有较高的酒精浓度。
酒精浓度和红酒密度有很强的相关性,酒精浓度增加,密度逐渐降低。
拿到数据集以后,首先进行单个变量的分析,引入了两个新的变量,糖酸比和二氧化硫比,查看资料初步认为糖酸比对于红酒质量影响重大,而二氧化硫主要用于防腐,所以猜测其和质量得分也有一定的关联。但是在分析两个变量关系时,发现新增的两个变量和质量得分之间的相关性都不是特别明显,所以在后续过程中放弃了继续分析这两个变量。在分析两个变量关系时,发现了挥发性酸度、柠檬酸、硫酸盐、酒精分别和质量评分之间有一定的相关性(正相关或负相关)。绘制箱形图,并标记出不同质量得分酒精浓度平均值的点,绘制回归线,发现两个变量之间存在的关系,相关系数0.48也说明了两个变量之间相关性较强。通过绘制三个变量关系图,发现了质量得分越高,挥发性酸度越低。通过这个分析过程,加深了我对用R语言进行数据探索分析的了解,如何从单变量分析到多变量分析,一步一步的验证自己的想法,并深入的了解数据集。同时了解了在不同的分析情况下绘制不同的可视化图形,简单明了的发现关联性。本次分析的这个红酒数据集的样本量不是非常大,如果有更大的样本量,可以构建合理的预测模型,更为准确的通过挥发性酸度、柠檬酸、硫酸盐、酒精等因素预测葡萄酒的质量得分。